MuKEA: Multimodal Knowledge Extraction and Accumulation for Knowledge-based Visual Question Answering
https://gyazo.com/51294e3560f51ee9d6d93c80b996f856
CVPR22
質問画像に含まれていない知識を要する質問に回答するタスク
例えば, 以下のVQAでは, 外部知識=kawasakiを使わないと回答できない
https://gyazo.com/0f22297ecc21d3a34675b83d95be40db
新規性
scene graphを作るのではなく, 画像由来のHead Entity (領域画像)と, 言語由来のTail Entity (後述)について, (entity, relation, entity)のtripletを用いて学習 triplet (entity, relation, entity)
Head Entity
この画像特徴量と質問文のrelevence affinity matrix(スコア行列)を計算し, 親和性の高い領域画像の画像特徴量をHead Entityとする
Tail Entity
学習時は学習可能パラメタとしてQAのキャプションから学習
推論時は知識グラフ (知識DB)からの補完問題として解く Tail Entity自体がVQAのanswerとなる
relation
これにより, Head Entity(領域画像)とTail Entity(言語)の関係を表現
定性的結果
https://gyazo.com/917c50449e90bc8b0d052a01bb888bad